Telegram Group & Telegram Channel
🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично

Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.

🧩 Типовые причины падения качества:

1. Искажения входных признаков
— Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.


2. Отсутствие валидации на этапе inference
— Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).


3. Появление новых распределений (data drift)
— В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.


4. Неверная предобработка в проде
— Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.


🛠 Как защититься

➡️ Внедрить валидацию входных данных (тип, диапазон, формат).
➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям.
➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна.
➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных.
➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/970
Create:
Last Update:

🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично

Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.

🧩 Типовые причины падения качества:

1. Искажения входных признаков
— Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.


2. Отсутствие валидации на этапе inference
— Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).


3. Появление новых распределений (data drift)
— В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.


4. Неверная предобработка в проде
— Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.


🛠 Как защититься

➡️ Внедрить валидацию входных данных (тип, диапазон, формат).
➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям.
➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна.
➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных.
➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/970

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

How Does Bitcoin Mining Work?

Bitcoin mining is the process of adding new transactions to the Bitcoin blockchain. It’s a tough job. People who choose to mine Bitcoin use a process called proof of work, deploying computers in a race to solve mathematical puzzles that verify transactions.To entice miners to keep racing to solve the puzzles and support the overall system, the Bitcoin code rewards miners with new Bitcoins. “This is how new coins are created” and new transactions are added to the blockchain, says Okoro.

That growth environment will include rising inflation and interest rates. Those upward shifts naturally accompany healthy growth periods as the demand for resources, products and services rise. Importantly, the Federal Reserve has laid out the rationale for not interfering with that natural growth transition.It's not exactly a fad, but there is a widespread willingness to pay up for a growth story. Classic fundamental analysis takes a back seat. Even negative earnings are ignored. In fact, positive earnings seem to be a limiting measure, producing the question, "Is that all you've got?" The preference is a vision of untold riches when the exciting story plays out as expected.

Библиотека собеса по Data Science | вопросы с собеседований from no


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA